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Resumen 

Objetivo: Un escenario dinamico como una pandemia requiere la rapida produccion de revisiones sistematicas 
de calidad, que pueden automatizarse utilizando inteligencia artificial (IA). Se evalué el uso de herramientas de 
IA en las revisiones sistematicas sobre COVID-19. 

Diseno del estudio: Tras el registro prospectivo del protocolo del estudio, automatizamos la descarga de todas 
las revisiones sistematicas open-access sobre COVID—19 en la base de datos COV/D-—19 Living Overview 
of Evidence, las indexamos en busca de palabras clave relacionadas con la IA y localizamos aquellas que 
utilizaban herramientas de IA. Comparamos el factor de impacto de sus revistas, las citas por mes recibidas, las 
cargas de trabajo en screening, el tiempo de elaboracién (dias desde el registro del protocolo hasta el primer 
preprint o envio a una revista) y la evaluaci6n metodologica AMSTAR—2 (maximo, 13 puntos) con un grupo 
control de revisiones sistematicas que no usaron IA emparejadas por fecha de publicacién. 

Resultados: De las 3 999 revisiones sobre COVID—19, 28 (0,7%, IC al 95%: 0,47-1,03%) hicieron uso de IA. 
De media, en comparaci6n con los controles (n = 64), las revisiones con IA se publicaron en revistas con mayor 
factor de impacto (mediana 8,9 vs. 3,5, P < 0,001), y examinaron mas abstracts por autor (302,2 vs. 140,3, 
P =0,009) y por estudio incluido (189,0 vs. 365,8, P < 0,001), a la vez que inspeccionaron menos full texts por 


autor (5,3 vs. 14,0, P = 0,005). No se encontraron diferencias en las citas recibidas (0,5 vs. 0,6, P = 0,600), en 
full texts inspeccionados por estudio incluido (3,8 vs. 3,4, P = 0,481), en los tiempos de elaboraci6on (74 frente a 
123, P =0,205) ni en puntuacidn AMSTAR-2 (7,5 frente a 6,3, P = 0,119). 

Conclusion: La IA fue una herramienta infrautilizada en las revisiones sistematicas sobre COVID—19. Su 
uso, en comparaci6n con las revisiones sin IA, se asocid con una seleccién mas eficiente de la literatura y un 
mayor impacto de publicacién. Hay cabida para la aplicacion de la IA en la automatizacion de las revisiones 
sistematicas. 
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1. INTRODUCCION 


La medicina basada en la evidencia depende de la 4gil pro- 
duccion de revisiones sistematicas para orientar y actualizar 
la practica clinica y las politicas sanitarias [1]. Esta es una 
tarea exigente y costosa, pues requiere que equipos de varios 
revisores consulten multiples repositorios y bases de datos, 
examinen miles de citas y articulos potencialmente relevantes, 
extraigan los datos pertinentes de los estudios seleccionados y 
sinteticen sus resultados [2, 3]. En el contexto de la pandemia 
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de SARS—CoV2/COVID-19, se necesitaban urgentemente 
métodos para acelerar este laborioso proceso [4, 5]. 


La elaboracién de revisiones sistematicas requiere seguir 
procedimientos consistentes y estandarizados para obtener 
resultados fiables. Sin embargo, la necesidad de acelerar la 
obtencién de resultados durante la pandemia se tradujo en una 
disminucion generalizada de la calidad metodoldgica de las 
revisiones [6, 7] y la popularizacion de las “revisiones rapi- 
das” [8, 9] (que acortan los plazos habituales de producci6n 
sacrificando en rigor de la busqueda, precisién del screening 0 
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la extraccidn de datos y a costa de un mayor riesgo de sesgos). 
{Son estas omisiones inevitables para obtener resultados mas 
rapidos? 

En contraste, las soluciones basadas en inteligencia arti- 
ficial (IA) automatizan partes del flujo de trabajo imitando 
la resoluci6n humana de problemas (incluyendo el uso de 
machine-learning, procesamiento del lenguaje natural, mi- 
neria de datos y otros subcampos) [10] para complementar 
o sustituir los esfuerzos humanos con un riesgo limitado de 
sesgos [11-13], y se han empleado previamente pero de forma 
escasa [14] en revisiones sistematicas con el fin de mejorar el 
screening [15] y la extraccion de datos [16, 17]. Su objetivo 
es acortar los tiempos de producci6én, permitir un cribado mas 
amplio de la literatura y reducir la carga de trabajo de los 
revisores sin comprometer la calidad metodolégica. 

En este trabajo, evaluamos el uso de las herramientas 
basadas en IA en las revisiones sistematicas sobre el COVID-— 
19 para determinar empiricamente si, en comparacion con las 
revisiones sobre el COVID-—19 sin JA, tuvieron un impacto 
en la produccion, la calidad y la publicacién de las revisiones 
sistematicas. 


2. MATERIALES Y METODOS 


Este estudio metodolégico [18] se ha elaborado de acuer- 
do con las directrices PRISMA 2020 [19] (checklist pro- 
porcionada como Material Suplementario 1A), y su proto- 
colo se registr6 en Open Science Forum Registries (DOI 
10.17605/OSF-IO/HS5 DAW) [20] de forma prospectiva. 


2.1 Busqueda y seleccion de revisiones 

Se consideraron para su inclusion todas las revisiones 
sistematicas relacionadas con el COVID-19 que pudieran 
haber hecho uso de cualquier herramienta de IA (machine- 
learning, deep-learning 0 procesamiento del lenguaje natural) 
para acelerar, mejorar o complementar cualquier aspecto de 
la realizacion de la revision (busqueda, screening, extraccion 
de datos y sintesis). Implementamos un script (disponible en 
el DOI 10.506 1/dryad.9kd51c5j6) [21] para procesar todas 
las referencias bibliograficas registradas en la base de datos 
COVID-19 Living Overview of Evidence (L—OVE) [22] fil- 
trando aquellas clasificadas como “revisi6n sistematica” entre 
el 1 de diciembre de 2019 y el 15 de agosto de 2021, y, a 
continuacién, consultar la base de datos Unpaywall [23] con 
cada DOI extraido para obtener un registro JSON con enlaces 
de descarga. El proceso se repitid 3 veces desde la publicacién 
de nuestro protocolo con el objetivo de reducir la potencial 
pérdida puntual de revisiones por errores de conexién con 
dichos servidores (la ultima busqueda fue el 17 de agosto de 
2021). 

Para seleccionar las revisiones que utilizaron IA, elabo- 
ramos una lista de palabras clave con alta probabilidad de 
aparecer en articulos con herramientas de IA (Material Su- 
plementario 1B). Indexamos cada archivo descargado con el 
motor de biisqueda OpenSemanticSearch, que ejecutamos en 
una maquina virtual local. Cada archivo que contenja alguna 
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de nuestras palabras clave fue inspeccionado manualmente 
de forma independiente por dos autores (JRTH y RFL). Se 
incluyeron preprints y articulos en otros idiomas ademas del 
inglés. El tinico criterio de exclusion aplicado fue la no dispo- 
nibilidad de los archivos en modalidad open-access, debido a 
la necesidad de evaluar la secci6n de métodos de cada revision 
incluida. Para crear un grupo de comparacion con suficiente 
poder estadistico de revisiones sin IA, por cada revision in- 
cluida se utilizaron los registros obtenidos para seleccionar 
aleatoriamente 3 controles con la misma fecha de publicaci6on 
(con un margen de un dia si no habia suficientes revisiones 
disponibles en una fecha determinada). Ademas, localizamos 
e incluimos en el andlisis todas las versiones anteriores de las 
revisiones categorizadas como living 0 como actualizaciones 
de otra publicada previamente (updated). 


2.2 Extraccion de datos 

Dos autores (JRTH y RFL) extrajeron manualmente los 
siguientes datos de cada revision: tipo de revisidn (segtin la 
descripcion de sus autores: estandar, rapid 0 scoping, living 
o updated); informacion sobre la financiacion recibida y los 
conflictos de intereses declarados; estado de publicacion, fac- 
tor de impacto en el Journal Citation Reports (JCR) de 2020 
de la revista que la publica y nimero de citas recibidas (hasta 
el 17 de agosto de 2021); ntimero de abstracts inspeccionados, 
full texts revisados y estudios primarios incluidos; nimero 
de autores y de revisores que participaron en el screening; y 
fechas de registro del protocolo (si estaba disponible) y de la 
versiOn mas antigua de la revision. Para las revisiones living 
y updated, se calcul6 la diferencia de abstracts inspecciona- 
dos y estudios incluidos entre cada una de sus versiones y se 
atribuy6 su recuento de citas a la mas reciente (para evitar 
contabilizarlas doblemente). Se utiliz6 Excel para registrar 
todas las variables. 

Tres autores (JRTH y RFL, asistidos por CAP) evaluaron 
todas las revisiones con la herramienta AMSTAR-—2 de calidad 
metodologica y riesgo de sesgos [24]. Se excluyeron sus items 
11-12 y 15, aplicables inicamente a meta-andlisis (segtin lo 
preestablecido en nuestro protocolo) y se otorgaron 0,5 pun- 
tos a las respuestas “parcialmente si” cuando correspondiera, 
permitiendo asi una puntuaci6n maxima de 13 puntos. Para 
las revisiones living y updated, slo se evalud su versi6n mas 
reciente (para evitar contabilizarlas doblemente). En las revi- 
siones que incluian tanto ensayos controlados aleatorizados 
como estudios observacionales, la pregunta 9 (evaluacion del 
riesgo de sesgo de los estudios individuales) se evalu6é por 
separado para cada tipo de estudio. La lista de evaluacién 
utilizada se proporciona como Material Suplementario IC. 


2.3 Sintesis de datos 

Se calcularon los ratios de abstracts y full texts inspeccio- 
nados por autor (como medida de la carga de trabajo) y por 
estudio incluido (como precisién del screening). El nimero 
de revisores que participaron en el screening se report6 de 
forma inconsistente entre los estudios y, por tanto, no se uti- 
lizé en los calculos. Se calculé el tiempo de elaboracién de 
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Figura 1: Seleccion de revisiones sistematicas sobre el Covid-19 que utilizaron IA 


Registros bibliograficos obtenidos de 
“COVID-19 Living OVerview of 
Evidence” (L:OVE) 

(n = 7050) 


Identificacion 


Revisiones para las que se consult 
la base de datos Unpaywall 
(n = 5731) 


Revisiones que se intento descargar 
(n = 4515) 


Screening 


Revisiones incluidas en el screening 
(n = 3999) 


Revisiones inspeccionadas para 
inclusién 
(n = 580) 


Revisiones que utilizaron IA (n = 20) 
Versiones previas obtenidas (n = 8) 


Registros bibliograficos descartados: 
No proporcionan DOI (n = 795) 
Duplicados (n = 275) 

No indexados en la base de 
datos Unpaywall (n = 249) 


Revisiones excluidas: 
No open access (n = 373) 
Full text no disponible como 
archivo PDF (n = 843) 


Revisiones no obtenidas: 
Duplicados (n = 369) 
Link de descarga roto (n = 147) 


Revisiones que no contenian 
ninguna palabra clave (n = 3419) 


Revisiones en grupo control (n = 60) 
Versiones previas obtenidas (n = 4) 


Figura 1 Diagrama de flujo de las revisiones sistematicas identificadas, cribadas, inspeccionadas para elegibilidad e incluidas en nuestro estudio. 


las revisiones con protocolo pre-registrado como la diferencia 
entre la fecha de su protocolo y la fecha de publicacién del 
primer preprint (0 la fecha de recepcion en la revista, en el 
caso de los articulos publicados sin preprint disponible). Los 
tiempos de elaboracion de las revisiones living y updated se 
calcularon como la diferencia entre las fechas de publicacion 
de cada una de sus versiones. Se excluyeron de esta variable 
las revisiones no pre-registradas debido a la heterogeneidad 
con que se informaron sus fechas de inicio. Se utiliz6é la prue- 
ba de chi-cuadrado de Pearson para comparar el porcentaje de 
revisiones rapidas, living, que recibieron financiacion y que 
fueron publicadas entre los grupos. El Factor de Impacto JCR 
de las revistas publicadas, los recuentos de citas recibidas, las 
cargas de trabajo de la revision, los tiempos de elaboracién y 
las calificaciones AMSTAR-2 se reportaron como medianas 
con rangos intercuartilicos (IQR), se representaron mediante 
diagramas box-and-whisker, y se compararon mediante el test 
de Wilcoxon-Mann-Whitney. Se utiliz6 el software R (version 
4.0.5) para el calculo estadistico y GraphPad Prism 9.2.0 para 
los graficos. También se proporcion6 una descripcién narrativa 
de las revisiones que utilizaron inteligencia artificial, detallan- 
do qué partes del proceso de la revisiOn se automatizaron y 


qué software fue utilizado, cémo difirieron las calificaciones 
de AMSTAR-2 entre ellas, y c6mo los autores justificaron 0 
qué impacto atribuyeron al uso de las herramientas basadas 
en IA. 


3. RESULTADOS 


3.1 Busqueda y seleccion de revisiones 

Como se muestra en la Figura J, identificamos 7050 
registros bibliograficos de revisiones sistematicas sobre el 
COVID-19, descargamos con éxito 3 999 e inspeccionamos 
manualmente 580 que contenian algunas de nuestras palabras 
clave. Seleccionamos 20 revisiones, de las cuales localizamos 
8 versiones anteriores, sumando asi 28 revisiones (0,7 % del 
total, intervalo de confianza al 95 %: 0,47-1,03 %) con uso 
de IA. De las 60 revisiones seleccionadas como controles 
segtn su fecha de publicacién, localizamos otras 4 versiones 
anteriores, lo que hace un total de 64 revisiones sin uso de IA. 
La lista completa de revisiones sistematicas seleccionadas se 
proporciona en formato Excel (Material Suplementario 2, sec- 
cidn “Revisiones incluidas’’) con todas las variables extraidas 
y el desglose de la herramienta AMSTAR-2 con cada item 
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Tabla 1 Variables extraidas para las revisiones que usaron inteligencia artificial (IA) y los controles 


Grupo IA (n = 20) 


Controles (n = 60) 


Caracteristicas n (%) n (%) A Vea Valor P 
Revisiones tipo rapid 5 (25%) 6 (10%) 15% 2.846 0.092 
Revisiones tipo living 5 (25%) 3. (5%) 20% 6.667 0.010 
Recibieron financiaci6n 12 (60%) 27 (45%) 15% 1.351 0.245 
Publicadas 12 (60%) 48 (80%) -20% 3.2 0.074 
Mediana IQR Mediana IQR Wilcoxon W_ Valor P 
JCR Impact Factor de la revista 9 (4-40) 3 (3-6) 409 <0.001 
Citas recibidas por mes 1 (0-13) 1 (0-3) 647 0.600 
Abstracts inspeccionados 
por autor 302 = (127-804) 140 = (44-378) 1126 0.009 
por estudio incluido 189 (94-366) 27 =(14-64) 1443 <0.001 
Full texts inspeccionados 
por autor 5 (4-16) 14 (7-37) 504.5 0.005 
por estudio incluido 4 (2-5) 3 (2-6) 883.5 0.481 
Tiempo de elaboraci6n (dias) 74 = (48-118) 123, (53-221) 183.5 0.205 
Puntuacién AMSTAR-2 (sobre 13) 8 (5-9) 6 (4-8) 740.5 0.119 


Se utiliz6 la prueba de chi-cuadrado de Pearson para comparar las proporciones de revisiones rapid, living, que recibieron financiacién y que fueron publicadas, 
y el test de Wilcoxon-Mann-Whitney para el resto de comparaciones. Las medianas y rangos intercuartilicos (IQR, expresados como cuartil I — cuartil 3) se 


muestran redondeados al entero mas cercano. 


A: Diferencias absolutas en puntos porcentuales entre las revisiones que usaron IA y las de control. 7: estadistico de la prueba de chi-cuadrado de Pearson. 


Wilcoxon W: estadistico del test de Wilcoxon-Mann-Whitney (rank-sum test). 


evaluado. También se proporciona la lista completa de revi- 
siones inspeccionadas manualmente y finalmente no incluidas 
en el trabajo (secci6n “Revisiones excluidas’’). 


3.2 Descripcion de las revisiones incluidas 

Las variables extraidas se resumen en la Tabla J y pueden 
visualizarse en la Figura 2. De las 20 revisiones seleccionadas 
por utilizar IA, hubo 5 rapid reviews (25%, con | scoping 
review y | rapid evidence map) y 5 revisiones living (25%). 
Quince revisiones proporcionaron una declaracion de conflic- 
tos de intereses, de las cuales 12 (60%) declararon haber reci- 
bido financiacion externa; 12 (60%) habian sido publicadas. 
De las 60 revisiones del grupo control, hubo 6 rapid reviews 
(10%, con | scoping review) y 3 revisiones living (5%). Cin- 
cuenta y siete revisiones proporcionaron una declaraci6n de 
conflicto de intereses, de las cuales 27 (45 %) declararon haber 
recibido financiacion externa; 48 (80%) habian sido publica- 
das. Los Factores de Impacto JCR y los recuentos de citas 
recibidas mostraron una alta variabilidad en el grupo IA, prin- 
cipalmente debido a la inclusién de 3 revisiones publicadas 
en BMJ [25-27], 2 revisiones Cochrane [28, 29] y 1 revision 
de la revista Lancet [30]. Ademas, sélo 10 revisiones en el 
grupo IA (50%) y 22 en los controles (36%) registraron pre- 
viamente un protocolo, lo que en conjunto supuso tinicamente 
44 registros para el calculo de los tiempos de elaboraci6én. 


3.3 Comparacion de las revisiones con IA con los 
controles 

El grupo JA incluy6é mas revisiones living que los contro- 
les (5/20 vs. 3/60, IC del 95 % diferencia absoluta 0,2 a 39,8 %, 
P=0,010), pero no mostro diferencias en revisiones rapid 
(5/20 vs. 6/60, IC del 95 % -5,4 a 35,4 %, P = 0,092), financia- 
cion (12/20 vs. 27/60, IC del 95 % -9,9 a 39,9 %, P = 0,245) 
o estado de publicacion (12/20 vs. 48/60, IC del 95 % -43,7 a 


3,7 %, P =0,074). Los factores de impacto JCR en las revisio- 
nes publicadas en el grupo IA fueron significativamente ma- 
yores que los controles (mediana [IQR]: 8,9 [3,9-39,9] vs. 3,5 
[2,6-5,5], P < 0,001); en nimero de citas recibidas no mostra- 
ron diferencias (0,5 [0,0-13,5] vs. 0,6 [0,0-2,8], P = 0,600). 

En cuanto a las mediciones de la carga de trabajo, el grupo 
IA revis6 mas abstracts por autor (302,2 [126,7-804,3] frente a 
140,3 [43,8-378,2], P = 0,009) y por estudio incluido (189,0 
[94,1-365,8] frente a 26.9 [13,7-64,1], P < 0,001), mientras 
que inspeccionaron menos full texts por autor (5,3 [3,7-16,1] 
vs. 14,0 [6,5-37,2], P = 0,005) y por estudio incluido (3,8 
[2,4-5,3] vs. 3,4 [2,0-6,2], P = 0,481). 

No se observaron diferencias en los tiempos de elabora- 
ci6n de las revisiones prerregistradas (74,0 [47,5-117,5] frente 
a 123,0 [53,0-221,0], P =0,205). Las puntuaciones medias 
obtenidas en la evaluacién metodol6gica AMSTAR-2 (Mate- 
rial Suplementario 1C) no fueron significativamente mayores 
en el grupo IA (7,5 [5,3-9,1] vs. 6,3 [3,9-8,0] puntos sobre 13, 
P =0, 119), mostrando ambos grupos una alta heterogeneidad 
de resultados, como se puede observar en la Figura 3. En com- 
paracion con los controles, las revisiones con JA obtuvieron 
peores resultados en la pregunta 4 (estrategia de busqueda de 
literatura, -12%) y mejores en la pregunta 6 (extraccién de 
datos por duplicado, 35 %), mientras que mostraron diferen- 
cias minimas en la pregunta 5 (screening por duplicado, 7%). 
Ambos grupos obtuvieron las puntuaciones mas bajas en las 
preguntas 7 (proporcionar una lista de estudios excluidos) y 
10 (informar sobre las fuentes de financiaci6én de los estudios 
incluidos). 


3.4 Descripcion narrativa de los usos de la IA 

Segtin la etapa del proceso de revision en la que se utiliz6 
IA, podemos clasificar las 20 revisiones del grupo IA en tres 
categorias, como se muestra en la Tabla 2. 
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Cl Grupo IA Controles 
100% 100 


80% < 80 
60% 60 
40% 40 
20% . 20 


ve Rapid Living Financ. Publicadas Impact Factor Citas por mes 
10,000 Abstracts revisados [D] Full texts inspeccionados 10,00 
1,000 D . 1,000 
100 r 100 
10 10 
1 
por autor por estudio incluido por autor por estudio incluido 


400 15 


300 . 
10 
200 
5 
100 
0 0 
Tiempo de elaboraci6n (dias) Puntuaci6én AMSTAR-2 


Figura 2 Caracteristicas de las revisiones incluidas. Diagrama box-and-whisker (de “cajas y bigotes”: las cajas encierran los cuartiles Q1—Q3, sus lineas 
centrales representan la mediana, y los bigotes se extienden hasta los puntos de datos mas lejanos dentro del intervalo de 1,5 IQR). El panel A compara la 
proporcion de revisiones rapid, living, financiadas y publicadas entre los grupos; el panel B presenta los Factores de Impacto JCR 2020 de las revistas y los 
recuentos de citas por mes de cada grupo; los paneles C y D muestran las mediciones de la carga de trabajo de los autores: abstracts revisados y full texts 
inspeccionados, por autor y por estudio incluido; el panel E muestra los tiempos medios de elaboracion (en dias) de las revisiones de cada grupo; y el panel F 
representa sus evaluaciones metodolégicas AMSTAR-2. 


Tabla 2a Uso de IA: Asistencia en la busqueda bibliografica 


Ref. Titulo Autor Revista Software {Cédigo 
utilizado abierto? 
[31] Prevalence of Gastrointestinal Symptoms and Fecal Viral Shedding in Patients with Coronavirus Disease 2019 Parasa et al. JAMA Network Open CORD-19 Parcial 
[32] The influence of comorbidity on the severity of COVID-19 disease: systematic review and analysis Zaki et al. preprint CORD-19 + Si 
Okapi BM25 
[33] The Estimations of the COVID-19 Incubation Period: A Scoping Reviews of the Literature Zaki et al. Journal of Infection and CORD-19 + Si 
Public Health BioBERT 
[34] Ocular toxicity and Hydroxychloroquine: A Rapid Meta-Analysis Michelson et al. preprint GenesisAI No 
[35] A Systematic Review of the Incubation Period of SARS-CoV-2: The Effects of Age, Biological Sex, and Location on Incubation Daley et al. preprint No reportado No 
Period 
Tabla 2b Uso de IA: Filtrado de ensayos controlados aleatorizados 
Ref. Titulo Autor Revista Software {Codigo 
utilizado abierto? 
36] — Impact of remdesivir on 28 day mortality in hospitalized patients with COVID-19: February 2021 Meta-analysis Robinson et al. preprint RobotSearch Si 
37] Impact of systemic corticosteroids on hospitalized patients with COVID-19: January 2021 Meta-analysis of randomized Robinson et al. preprint RobotSearch Si 
controlled trials 
25] Prophylaxis against COVID-19: living systematic review and network meta-analysis Bartoszko et al. BMJ RobotSearch Si 
26] Drug treatments for COVID-19: living systematic review and network meta-analysis Siemieniuket al. BMJ RobotSearch Si 
38] Adverse effects of remdesivir, hydroxychloroquine, and lopinavir/ritonavir when used for COVID-19: systematic review and Izcovich et al. preprint RobotSearch Si 
meta-analysis of randomized trials 
39] — Tocilizumab and sarilumab alone or in combination with corticosteroids for COVID-19: A systematic review and network Zeraatkar et al. preprint RobotSearch Si 
meta-analysis 
40] — Clinical trials in COVID-19 management & prevention: A meta-epidemiological study examining methodological quality Honarmand etal. Journal of Clinical RobotSearch Si 
Epidemiology 
Tabla 2c Uso de IA: Automatizacion del screening 
Ref. Titulo Autor Revista Software {Codigo 
utilizado abierto? 
41] Impacts of school closures on physical and mental health of children and young people: a systematic review Viner et al. preprint EPPI Reviewer No 
27] Prediction models for diagnosis and prognosis of COVID-19: systematic review and critical appraisal Wynants etal. BMJ EPPI Reviewer No 
28] — Rapid, point-of-care antigen and molecular-based tests for diagnosis of SARS-CoV-2 infection (Review) Dinnes et al. Cochrane Database of EPPI Reviewer No 
Systematic Reviews 
29] Signs and symptoms to determine if a patient presenting in primary care or hospital outpatient settings has COVID-19 Struyf et al. Cochrane Database of EPPI Reviewer No 
Systematic Reviews 
42] Are medical procedures that induce coughing or involve respiratory suctioning associated with increased generation of aerosols Wilson et al. Journal of Hospital EPPI Reviewer No 
and risk of SARS-CoV-2 infection? A rapid systematic review Infection 
43] Risk and Protective Factors in the COVID—19 Pandemic: A Rapid Evidence Map Elmore et al. Frontiers in Public Health SWIFT-Active No 
Screener 
44]  Tocilizumab and Systemic Corticosteroids in the Management of COVID-19 Patients: A Systematic Review and Meta-Analysis  Alkofide et al. _ International Journal of Abstrackr Si 
Infectious Diseases 
30] Physical distancing, face masks, and eye protection to prevent person-to-person transmission of SARS-CoV-2 and COVID-19: a Chu et al. The Lancet Evidence Prime No 


Tabla 2 Tabla que muestra las diferentes herramientas de inteligencia artificial (IA) que se utilizaron en la elaboracién de revisiones sistematicas sobre COVID-19 (con enlaces a aquellas de cddigo abierto), segtin 


systematic review and meta-analysis 


su ambito de aplicacién: asistencia en la busqueda bibliografica, filtrado de ensayos controlados aleatorizados (ECA) y automatizaci6n del screening. 
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Asistencia en la busqueda bibliografica 

Tres revisiones [3 1-33] complementaron sus procedimien- 
tos de busqueda con consultas de tipo “pregunta abierta” en 
CORD-19 [45], una base de datos sobre el COVID-19 estruc- 
turada para facilitar el uso de sistemas de mineria de textos 
y deep-learning: Zaki et al. [32] utilizaron un repositorio de 
GitHub basado en el algoritmo de busqueda Okapi BM25; 
Zaki et al. [33] emplearon BioBERT, un sistema revisado por 
pares [46] y de cddigo abierto preentrenado para el andlisis 
de literatura biomédica; y Parasa et al. [31] no proporciona- 
ron detalles sobre el motor de biisqueda empleado. Ademas, 
Michelson et al. [34] utilizaron software privado de la empre- 
sa GenesisAI para producir un “rapid meta-analysis” como 
prueba de concepto de su producto. Daley et al. [35] no pro- 
porcionaron ninguna informacion sobre el software empleado. 
S6lo 2 revisiones en este subgrupo se encontraban publicadas, 
y ninguna pre-registrd un protocolo. La puntuacién media en 
AMSTAR-2 fue de 3,7/13. 


Filtrado de ensayos controlados aleatorizados 

Siete articulos [25, 26, 36-40] emplearon RobotSearch, 
un software revisado por pares [47] y de cddigo abierto para 
identificar, de entre las referencias bibliograficas proporcio- 
nadas por el usuario, aquellas correspondientes a ensayos 
controlados aleatorizados (ECA). Se basa en una red neuronal 
entrenada con datos de las revisiones de Cochrane y destaca 
por su facilidad de uso (no requiere instalacién) y flexibilidad 
(ya que permite diferentes niveles de sensibilidad, incluido 
uno destinado especificamente a revisiones sistematicas, asi 
como la integraci6n con otros scripts). 

En nuestra muestra, RobotSearch se utiliz6 particularmen- 
te con frecuencia en revisiones living 0 parcialmente auto- 
matizadas. Dos de las revisiones que utilizaron RobotSearch 
fueron la de Bartoszko et al. [25] un meta-andlisis en red sobre 
la profilaxis del COVID-19, y Siemieniuk et al. [26], un living 
meta-analysis de ensayos aleatorizados para guiar las reco- 
mendaciones de la Organizaci6n Mundial de la Salud (OMS) 
sobre la terapéutica del COVID-19, de los cuales Izcovich 
et al. [38] y Zeraatkar et al. [39] son subestudios separados. 
Ambos forman parte del proyecto “BMJ Rapid Recommenda- 
tions” y publican sus conclusiones y analisis preliminares en 
un sitio web en constante actualizacién. La puntuaci6n media 
en AMSTAR-2 fue de 7,5/13. 


Automatizacion del screening 

Encontramos ocho articulos [27—30, 41-44] que hacian 
uso de procedimientos de screening potenciados por IA. Cin- 
co de ellos [27—29, 41, 42] utilizaron EPPI Reviewer, una 
plataforma web (de acceso tipo shareware) para asistir en la 
elaboracién de todo tipo de revisiones sistematicas. Ofrece 
una gran variedad de funciones, desde la gestién bibliografica 
hasta facilitar el trabajo colaborativo, asi como la capacidad 
de sugerir otros estudios relevantes, la agrupacion automatica 
de articulos y la mineria de textos. En particular, las revisiones 
incluidas utilizaron su médulo “SGDClassifier’ para priorizar 
el screening de articulos con mas probabilidad de ser incluidos 
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de acorde con las decisiones previas del usuario. Como resul- 
tado, tanto Wynants et al. [27] como dos revisiones Cochrane 
[28, 29] citan una reduccion del 80% en la carga de screening 
gracias a esta herramienta. 

Otras dos revisiones utilizaron técnicas de automatizacion 
del screening englobadas en plataformas de asistencia a la ela- 
boracion de revisiones sistematicas: SWIFT-Active Screener 
[48] en Elmore et al. [43], configurado para asegurar un recall 
minimo (porcentaje de captura de estudios relevantes) como 
criterio de detencién del screening; y Evidence Prime de Chu 
et al. [30] para verificar y complementar el screening manual. 
Por ultimo, Alkofide et al. [44] utilizaron Abstrackr, el tnico 
software de cédigo abierto en esta categoria, que utiliza el 
feedback de los articulos previamente seleccionados y recha- 
zados por el usuario para guiar el proceso de screening. Las 
evaluaciones de esta herramienta publicadas en la literatura 
[49] sugieren un gran ahorro de trabajo en la produccién de 
revisiones sistematicas a costa de una tasa de falsos negativos 
del 0,1 %. 

Entre las revisiones analizadas en este estudio, este sub- 
grupo present6 las puntuaciones mas altas en la herramienta 
de valoraci6n AMSTAR-2 (9, 1/13), destacando las mencio- 
nes de dos revisiones Cochrane [28, 29] (12 puntos) y un 
meta-andlisis rapido [30] publicado en The Lancet (10,5 pun- 
tos). A diferencia de las revisiones de las otras categorias, que 
priorizaron la profundidad de la busqueda, el uso de herra- 
mientas basadas en JA en este subgrupo estuvo motivado por 
la gran carga en screening a la que se enfrentaron los reviso- 
res: citando a Dinnes et al. [28], «se necesitaba un enfoque 
mds eficiente para procesar la creciente produccion cientifica 
sobre el COVID-19». 


4. DISCUSION 


En este trabajo se evalué si los potenciales beneficios de 
implementar IA en la elaboracién de revisiones sistematicas 
se han visto reflejados en las revisiones sobre el COVID-19. 
Encontramos que la IA se utiliz6 raramente, apareciendo sdlo 
en el 0,7 % de las revisiones estudiadas, pero que se asocié 
significativamente con una reduccién de la carga de trabajo 
en screening de los autores y la publicacion en revistas con 
mayor factor de impacto. Ser una revision living se asocié con 
el uso de IA, siendo los usos mas comunes la optimizacién 
del screening (priorizando los estudios con alta probabilidad 
de ser relevantes) y la seleccidn de ensayos controlados alea- 
torizados. 

Como limitacion de nuestro estudio, destacamos su baja 
potencia estadistica debido al escaso nimero de revisiones que 
utilizaron IA. Anticipando la limitada disponibilidad de revi- 
siones con IA, adoptamos un procedimiento de screening muy 
sensible, procesando mas de 7 000 referencias bibliograficas 
de revisiones sistematicas sobre el COVID-—19 (combinando 
la consulta de expertos para la seleccidn de palabras clave con 
un potente motor de biisqueda), y elegimos un ratio de 3:1 
para el tamafio del grupo de control para minimizar el ries- 
go de errores estadisticos de tipo I. El uso de L-OVE como 
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Evaluaci6n metodolégica AMSTAR-2 
(puntuaci6n media para cada pregunta) 
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Figura 3 Resumen de la evaluacién metodolégica AMSTAR-2. El grafico de la parte superior muestra las puntuaciones medias obtenidas en cada una de las 
preguntas evaluadas en el grupo de revisiones sistematicas con uso de inteligencia artificial (IA) (barras azules) y en el grupo control (barras naranjas). Las 
lineas de colores de la parte inferior representan visualmente la heterogeneidad de resultados obtenidos en las revisiones sistematicas de ambos grupos (el 
gradiente representa las puntuaciones obtenidas: rojo=4; amarillo=6,5; verde=9). 


base de datos principal permitiéd acceder a multiples fuentes 
bibliograficas relevantes y actualizadas de forma sistematica 
y automatizable; sin embargo, nuestra estrategia de bisqueda 
podria mostrar una menor sensibilidad para los informes ins- 
titucionales y whitepapers, que a menudo no son indexados 
por las bases de datos tradicionales. El potencial impacto de 
errores puntuales en la descarga de revisiones y la exclusio6n 
de las revisiones no open-access de nuestro estudio es incier- 
to; su impacto en la generalizacién de nuestros resultados 
debe interpretarse teniendo en cuenta la gran diversidad de 
fuentes secundarias accesibles a través de L—OVE y la alta 
accesibilidad a la investigaci6n sobre el COVID—19 durante 
la pandemia. Ademas, el uso de las fechas de publicacién 
como variable de emparejamiento permitié una seleccién de 
controles guiada por nuestro script (para minimizar el riesgo 
de sesgos), pero impidi6 el uso de otras variables de con- 
trol deseables, como el tamafio 0 el enfoque tematico de las 
revisiones. 


Debemos resaltar que el calculo de la carga de screening 
“por autor” en lugar de “por revisor que participa en el cribado” 
puede infraestimar estas variables en revisiones con equipos 
grandes (cuando no todos sus autores participan en el cribado). 
Tener mayor ntmero de autores también podria relacionarse 
con la disponibilidad de recursos de los equipos, y por tanto 
con el acceso a asesoramiento y expertos en IA. Asimismo, 
los grupos con mas recursos y con apoyo de expertos en IA 
podrian contar con mayores facilidades de acceso a revistas 
bien indexadas, lo que podria sesgar los andlisis del factor 


de impacto a favor de la IA. Por otra parte, la evaluaci6n 
con AMSTAR-2 se realiz6 inevitablemente sin poder cegar a 
los evaluadores en cuanto al uso 0 no de JA, lo cual, dada la 
subjetividad de ciertos aspectos de la evaluacidn metodol6gica, 
podria haber influido en sus resultados. Por ultimo, el uso de 
los recuentos de citas para medir el impacto de las revisiones 
es un abordaje imperfecto con deficiencias conocidas, como el 
“citation bias” (los resultados estadisticamente significativos 
suelen citarse mas que otros) o la propia autoridad de los 
autores [50] y puede particularmente subestimar el impacto 
de las revisiones publicadas mas recientemente. 


En promedio, un equipo de 5 revisores tarda 15 meses 
en completar una revisi6n sistematica tradicional [51] con 
tasas de errores estimadas en torno al 10% [52]. Enfrentarse 
a la pandemia del COVID-19 exigia contar con revisiones 
sistematicas sélidas con urgencia, ya que cualquier retraso 
suponia un coste tanto en términos de vidas perdidas como 
en dafios econdmicos. Sin embargo, a pesar del crecimiento 
exponencial que han experimentado los campos de la IA y 
el machine-learning durante los Ultimos afios, estos desem- 
pefiaron un papel sorprendentemente limitado en las revisio- 
nes sistematicas sobre el COVID-19. Nuestras conclusiones 
concuerdan con las de trabajos anteriores [14] que sugieren 
que los beneficios que la IA puede proporcionar en la reali- 
zacion de revisiones sistematicas son desconocidos para la 
mayoria de los revisores, y la relativa heterodoxia de sus méto- 
dos podria dificultar inicialmente su aceptaci6én por parte de la 
comunidad cientifica. El software de cddigo abierto, general- 
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mente mas propenso a ser adoptado en dichos circulos, jugara 
un papel esencial en este aspecto. 

Nuestra descripcion narrativa de las revisiones incluidas 
en este estudio mostr6 que ninguna hizo uso simultaneo de 
mas de una herramienta de IA. Un enfoque mas cohesivo, que 
integre la IA en cada paso del proceso de revision, ahorraria 
tiempo a los revisores que desearan interconectar diferentes 
herramientas con formatos a veces incompatibles. Las herra- 
mientas de asistencia semiautomatizadas fueron una de las 
areas donde la IA mostr6 una mayor adopcion, y la variedad 
de opciones de software (como EPPI Reviewer, ya adoptado 
como herramienta oficial de produccién de revisiones Cochra- 
ne) fue mayor. Por el contrario, la automatizacion completa 
sdlo fue empleada por RobotSearch (una herramienta para 
filtrar ensayos aleatorizados ampliamente evaluada en la li- 
teratura), lo que sugiere que la adopcién de soluciones cada 
vez mas automatizadas puede requerir la produccién previa de 
evaluaciones mas detalladas de sus costes potenciales (tanto 
en pérdida de articulos como en riesgo de sesgos) en balance 
con sus aportaciones en productividad. 


Conclusion 

La necesidad de automatizacién en las sintesis de evi- 
dencia es obvia, ya que la carga de trabajo de los revisores 
crece tan rapido como las ciencias biomédicas. La adopcién 
de nuevas tecnologias puede llevar tiempo, pero aprovechar el 
potencial de la IA en la elaboracidn de revisiones sistematicas 
debe ser una prioridad. En el futuro, la IA debe incorporar- 
se a las revisiones sistematicas como el siguiente paso para 
facilitar la toma de decisiones de manera mas basada en la 
evidencia, rapida y precisa. 


Material suplementario 


Disponible en la publicacién original. 
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